Deep latent variable models have achieved significant empirical successes in model-based reinforcement learning (RL) due to their expressiveness in modeling complex transition dynamics. On the other hand, it remains unclear theoretically and empirically how latent variable models may facilitate learning, planning, and exploration to improve the sample efficiency of RL. In this paper, we provide a representation view of the latent variable models for state-action value functions, which allows both tractable variational learning algorithm and effective implementation of the optimism/pessimism principle in the face of uncertainty for exploration. In particular, we propose a computationally efficient planning algorithm with UCB exploration by incorporating kernel embeddings of latent variable models. Theoretically, we establish the sample complexity of the proposed approach in the online and offline settings. Empirically, we demonstrate superior performance over current state-of-the-art algorithms across various benchmarks.
translated by 谷歌翻译
在学习到等级的问题中,特权功能是在模型培训期间可用的功能,但在测试时不可用。这种特征自然出现在商品推荐系统中;例如,“用户单击此项目”作为功能可预测离线数据中的“用户购买此项目”,但在线服务期间显然不可用。特权功能的另一个来源是那些太昂贵而无法在线计算但可行的功能。特权功能蒸馏(PFD)是指自然想法:使用所有功能(包括特权的)训练“老师”模型,然后使用它来训练不使用特权功能的“学生”模型。在本文中,我们首先在经验上研究了三个公共排名数据集和从亚马逊日志中得出的工业规模排名问题。我们表明,PFD在所有这些数据集上都超过了几个基线(无缩写,预处理,自我验证和广义蒸馏)。接下来,我们通过经验消融研究和线性模型的理论分析来分析PFD的原因和何时表现良好。两项研究都发现了一个有趣的非主持酮行为:随着特权特征的预测能力增加,最初的学生模型的性能最初会增加,但随后降低。我们表明了后来的表现降低的原因是,一个非常预测的特权教师会产生较高的差异的预测,从而导致较高的差异学生估计和劣等测试表现。
translated by 谷歌翻译
在均匀的Lipschitzness的简单假设下,即每样本样本梯度均匀地界限的大多数先前的收敛结果是在均匀的私有随机梯度下降(DP-SGD)中得出的。在许多问题,例如使用高斯数据的线性回归中,此假设是不现实的。我们可以通过假设每个样本梯度具有\ textit {样品依赖性}上限,即每样本的Lipschitz常数,而它们本身可能是无限的,那么我们就会放松均匀的唇。当按样本Lipschitz常数具有有限的矩时,我们在凸函数和非凸函数上得出DP-SGD的新收敛结果。此外,我们还提供了针对DP-SGD中选择剪辑标准的原则指导,以使其满足我们轻松的Lipschitzness的凸设置,而无需在Lipschitz常数上做出分配假设。我们通过基准测试数据集的实验来验证建议的有效性。
translated by 谷歌翻译
数据增强在大型神经网络的培训中很受欢迎;但是,目前,关于如何使用增强数据的不同算法选择之间没有明确的理论比较。在本文中,我们朝这个方向迈出了一步 - 我们首先提出了对线性回归的简单新颖的分析,该分析具有标签不变性增强,这表明数据增强一致性(DAC)本质上比对增强数据的经验风险最小化更为有效(DA- erm)。然后将分析扩展到误指定的增强(即更改标签的增强),这再次证明了DAC比DA-MERM的优点。此外,我们将分析扩展到非线性模型(例如神经网络)并呈现泛化范围。最后,我们使用CIFAR-100和WIDERESNET进行DAC和DA-MER之间的DAC和DA-MER之间进行干净和苹果对比较的实验;这些共同证明了DAC的效果。
translated by 谷歌翻译
我们提出了两种线性土匪算法,具有每步复杂性sublerear的武器$ k $。该算法专为手臂集非常大且缓慢变化的应用而设计。我们的关键意识到,选择手臂还原为最大的内部产品搜索(MIPS)问题,该问题可以大约解决,而无需打破后悔保证。现有的近似MIPS求解器以均匀时间运行。我们扩展了这些求解器,并为在线学习问题提供理论保证,在线学习问题(即,以后的步骤取决于上一步中的反馈)成为一个独特的挑战。然后,我们明确表征了每步复杂性与遗憾之间的权衡。对于足够大的$ k $,我们的算法具有sublinear每步复杂性和$ \ tilde o(\ sqrt {t})$遗憾。从经验上讲,我们在合成环境和现实世界中的电影推荐问题中评估了我们提出的算法。与线性时间基线相比,我们提出的算法可以提供超过72倍的速度,同时保留了类似的遗憾。
translated by 谷歌翻译
Collecting sufficient labeled data for spoken language understanding (SLU) is expensive and time-consuming. Recent studies achieved promising results by using pre-trained models in low-resource scenarios. Inspired by this, we aim to ask: which (if any) pre-training strategies can improve performance across SLU benchmarks? To answer this question, we employ four types of pre-trained models and their combinations for SLU. We leverage self-supervised speech and language models (LM) pre-trained on large quantities of unpaired data to extract strong speech and text representations. We also explore using supervised models pre-trained on larger external automatic speech recognition (ASR) or SLU corpora. We conduct extensive experiments on the SLU Evaluation (SLUE) benchmark and observe self-supervised pre-trained models to be more powerful, with pre-trained LM and speech models being most beneficial for the Sentiment Analysis and Named Entity Recognition task, respectively.
translated by 谷歌翻译
我们考虑在平均场比赛中在线加强学习。与现有作品相反,我们通过开发一种使用通用代理的单个样本路径来估算均值场和最佳策略的算法来减轻对均值甲骨文的需求。我们称此沙盒学习为其,因为它可以用作在多代理非合作环境中运行的任何代理商的温暖启动。我们采用了两种时间尺度的方法,在该方法中,平均场的在线固定点递归在较慢的时间表上运行,并与通用代理更快的时间范围内的控制策略更新同时进行。在足够的勘探条件下,我们提供有限的样本收敛保证,从平均场和控制策略融合到平均场平衡方面。沙盒学习算法的样本复杂性为$ \ Mathcal {o}(\ epsilon^{ - 4})$。最后,我们从经验上证明了沙盒学习算法在交通拥堵游戏中的有效性。
translated by 谷歌翻译
在本文中,我们为不存在或无限的数据的方差提供了置信序列的扩展。置信序列提供的置信区间在任意数据依赖性停止时间时有效,自然具有广泛的应用。我们首先为有限方差案例的CATONI风格置信序列的宽度建立了一个下限,以突出现有结果的松动性。接下来,我们为数据分布提供了紧密的catoni风格的置信序列,该数据分布有一个放松的〜$ p^{th} - $ arment,其中〜$ p \ in(1,2] $,并加强了有限差异案例的结果〜$ p = 2 $。显示出比使用dubins-savage不等式获得的置信序列更好。
translated by 谷歌翻译
尽管机器学习的其他领域越来越多地自动化,但设计高性能的推荐系统仍然需要高水平的人力努力。此外,最近的工作表明,现代推荐系统算法并不总是比调整良好的基线改进。一个自然的后续问题是:“我们如何为新数据集和性能指标选择正确的算法?”在这项工作中,我们首先要通过比较85个数据集和315个指标的18算法和100组超参数的大规模研究。我们发现,最好的算法和超参数高度依赖于数据集和性能指标,但是,每种算法的性能与数据集的各种元元功能之间也存在很强的相关性。在这些发现的激励下,我们创建了Reczilla,这是一种推荐系统的元学习方法,该方法使用模型来预测新的,看不见的数据集的最佳算法和超参数。通过使用比先前的工作更多的元培训数据,Reczilla可以大大降低面对新推荐系统应用时人类参与水平。我们不仅发布了我们的代码和预处理的Reczilla模型,而且还发布了所有原始的实验结果,因此从业者可以为其所需的性能指标训练Reczilla模型:https://github.com/naszilla/reczilla。
translated by 谷歌翻译
随着自动语音处理(ASR)系统越来越好,使用ASR输出越来越令于进行下游自然语言处理(NLP)任务。但是,很少的开源工具包可用于在不同口语理解(SLU)基准上生成可重复的结果。因此,需要建立一个开源标准,可以用于具有更快的开始进入SLU研究。我们展示了Espnet-SLU,它旨在在一个框架中快速发展口语语言理解。 Espnet-SLU是一个项目内部到结束语音处理工具包,ESPNET,它是一个广泛使用的开源标准,用于各种语音处理任务,如ASR,文本到语音(TTS)和语音转换(ST)。我们增强了工具包,为各种SLU基准提供实现,使研究人员能够无缝混合和匹配不同的ASR和NLU模型。我们还提供预磨损的模型,具有集中调谐的超参数,可以匹配或甚至优于最新的最先进的性能。该工具包在https://github.com/espnet/espnet上公开提供。
translated by 谷歌翻译